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Abstract of DE 4416881 (A1) 

In connection with a data processing device, in 
which an integrated circuit (chip) (called a data flow 
processor - DFP - below) is provided with many 
cells, which in particular are arranged orthogonally 
to each other, are homogeneously structured and 
each have several logically similar and structurally 
identically arranged components, and the cells are 
connected to input/output connections of the 
integrated circuit by row and column, possibly 
combined into groups, according to the invention the 
cells have a load logic, via which they are 
programmable (configurable) individually and 
possibly combined into groups, in such a way that 
any logical functions and/or networkings with each 
other can be verified, specifically in such a way that 
the DFP configuration can be manipulated during 
operation (or at run time), i.e.; functional parts 
(MACROS) of the DFP can be modified, without the 
necessity of stopping other functional parts or 
affecting their function. 
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PrCfungsantrag gem. § 44 PatG ist gestellt 
© Datenverarbeitungseinrichtung 

© In Verbindung mit einer Datenverarbeitungseinrichtung, 
wobei ein (im folgenden Datenflu&prozessor - DFP - genann- 
ter) integrierter Schaltungskreis (Chip) mit einer Vielzahl 
insbesondere orthogonal zueinander angeordneter homogen 
strukturierter Zellen mit je einer Mehrzahl jeweils logisoh 
gleicher und strukturell identisch angeordneter Bausteine 
vorgesehen ist, dessen Zellen zeilen- und spaltenweise, 
gegebenenfalls gruppenweise zusammengefaSt, mit Ein- 
/Ausgangsanschlussen des integrierten Schaltkreises ver- 
bunden sind, ist erfindungsgemaS den Zellen eine Ladelogik 
zugeordnet, Ober die sie je fur sich und gegebenenfalls 
gruppenweise zusammengefaSt so programmierbar (konfi- 
gurierbar) sind, daS beliebige logische Funktionen und/oder 
Vernetzungen untereinander verifizierbar sind, und zwar 
derart, daE eine Manipulation der DFP-Konfiguration wah- 
™ rend des Betriebes (oder zur Laufzeit), d. h. die Modifikation 
^ funktioneller Teile (MACROS) des DFPs erfolgen kann, ohne 
daS andere funktionelle Teile angehalten werden mussen 
oder in ihrer Funktion beeintrachtigt werden. 




Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen 

BUNDESDRUCKEREI 09.94 408 046/623 
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Beschreibung 

Die vorliegende Erfmdung bezieht sich auf eine Da- 
tenverarbeitungseinrichtung, d. h. eine Hardwareeinheit 
zur logischen Manipulation (Verknupfung) von in bina- 
rer Form vorliegenden Daten (Informationen^ 

Derartige Datenverarbeitungseinrichtungen sind 
mittlerweile lange bekannt und sie haben bereits breite 
Anwendung und Anerkennung gefundea Die prinzipiel- 
le Aufbau- und Arbeitsstruktur der bekannten Daten- 
verarbeitungseinrichtungen ist in etwa so zu definieren, 
daB eine arithmetisch-logische Verknupfungseinheit 
vorgesehen ist, in der die zu verknupfenden Daten einer 
programmtechnischen Anweisung (Software) zufolge 
verarbeitet werden. Die Daten werden dabei Uber ein 
Steuerwerk in mehr oder weniger komplexen Adressie- 
rungsvorgangen entsprechend abgerufen und zunachst 
in Arbeitsregistern bereitgestellt; nach der logischen 
Verknupfung werden dann die neuen Daten in einer 
vorgegebenen Speicherstelle wieder abgelegt Die 
arithmetisch-logische Verknupfungseinheit besteht da- 
bei aus logischen VerknQpfungsbausteinen (Gatter, 
Glieder), die jeweils so miteinander gekoppelt sind, daB 
die zu manipulierenden Daten der zugrunde liegenden 
Software entsprechend den vier Grundrechenarten ge- 
maB logisch verarbeitet werden. 

Es ist leicht nachzuvollziehen, daB auf der Basis der 
bekannten Strukturen relativ viel Rechenzeit dafur er- 
forderlich ist, die zu manipulierenden Daten auszulesen, 
und die Arbeitsregister zu uberfuhren, den spezifischen 
Logikbausteinen in der arithmetisch-logischen Ver- 
knupfungseinheit zuzuleiten und schlieBlich wieder ab- 
zuspeichern. Es ist ferner einsichtig, daB die Hardware- 
Struktur der arithmetisch-logischen Verknflpfungsein- 
heit insoweit nicht als optimal betrachtet werden kann, 
als schlieBlich die hardwaremafiig vorhandenen inte- 
grierten logischen Bausteine stets nur in ein und dersel- 
ben Art und Weise im Gesamtsystem aktiv benutzt wer- 
dea Ebenso wird durch strikte Hardwarevorgabe ein 
Aneinanderreihen von Funktionen in sogenannten Pipe- 
lines sehr erschwert oder eingeschrankt, was zwangs- 
laufig ein haufiges Registerumladen zwischen Arbeits- 
registern und Rechenwerk bedeutet Derartige Baustei- 
ne sind des weiteren nur schlecht kaskadierbar und er- 
fordern dann sehr viel Programmierarbeit 

Ein zusatzlicher Vorteil der vorliegenden Erfmdung 
liegt darin, daB eine uber einen weiten Raum skalierbare 
Parallelitat zur Verfugung steht Hierbei wird eine Basis 
zum schnellen und flexiblen Aufbau von neuronalen 
Strukturen geschaffea wie die bis dato lediglich mit 
erheblichem Aufwand simuliert werden konnen. 

Die der vorliegenden Erfindung zugrunde liegende 
Aufgabe besteht darin, eine im folgenden DatenfluBpro- 
zessor (DFP) genannte Datenverarbeitungseinrichtung 
anzugeben, bei der eine hdhere beziehungsweise besse- 
re Flexibility der Gesamtstruktur und des Datenflusses 
sowie der Pipelining- und Kaskadiermoglichkeiten zu 
einer Erhohung der Rechnerbeziehungsweise Verknup- 
fungsleistung fflhrt 

AuBer dem Einsatz als reiner DatenfluBprozessor, 
soli der DFP folgende weitere Aufgaben erfullen k6n- 
nen: 

— Einsatz als universeller Baustein zum Aufbau 
von- herkommlichen Rechnera wobei der Aufbau 
einfacher und billiger werden solL 

— Einsatz in neuronalen Netzea 
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Diese Aufgabe wird dadurch gelost, daB ein integrier- 
ter Schaltkreis (Chip) mit einer Vielzahl insbesondere 
orthogonal zueinander angeordneter Zellen mit je einer 
Mehrzahl jeweils logisch gleicher und strukturell iden- 
5 tisch angeordneter Zellen vorgesehen ist deren Anord- 
nung, sowie die interne Busstruktur, zur Erleichterung 
der Programmierung auBerst homogen ist Dennoch ist 
es denkbar innerhalb eines DatenfluBprozessors Zellen 
mit verschiedenen Zellogiken und Zellstrukturen unter- 

io zubringen, um so die Leistungsfahigkeit zu erhdhen, in- 
dem zum Beispiel fur Speicheransteuerungen andere 
Zellen als fur arithmetische Operationen existierea Ins- 
besondere kann fur neuronale Netze eine gewisse Spe- 
zialisierung von Vorteil seia Den Zellen ist eine Ladelo- 

15 gik zugeordnet, uber die die Zellen je far sich und gege- 
benenfalls gruppenweise in sogenannte MACROs zu- 
sammengefaBt so programmierbar sind, daB einerseits 
beliebige logische Funktionen, andererseits aber auch 
die Verknupfung der Zellen untereinander in weiten 

20 Bereichen verifizierbar sind. Dies wird erreicht indem 
jeder einzelnen Zelle ein gewisser Speicherplatz zur 
Verfugung steht, in dem die Konfigurationsdaten abge- 
legt sind. Anhand dieser Daten werden Multiplexer oder 
Transistoren in der Zelle beschaltet um die jeweilige 

25 Zellfunktionzugewahrleisten(sieheF1g. 12). 

Mit anderen als im Patentanspruch 1 gebrauchten 
Worten besteht der Kern der vorliegenden Erfindung 
darin, einen DatenfluBprozessor vorzuschlagen, der zel- 
lular aufgebaut ist und dessen Zellen uber eine externe 

30 Ladelogik im arithmetisch-logischen Sinne quasi belie- 
big neu konfiguriert werden konnen. Dabei ist es von 
auBerster Notwendigkeit, daB die betreffenden Zeilen 
einzeln und ohne Beeinflussung der ubrigen Zeilen oder 
gar einer Stillegung des gesamten Bausteins umkonfigu- 

35 riert werden konnen. Der DatenfluBprozessor gema\B 
der vorliegenden Erfindung kann so wahrend eines er- 
sten Arbeitszyklus als Addierer und wahrend eines spa- 
teren Arbeitszyklus als Multiplizierer "programmiert" 
werdea wobei die Anzahl der fur die Addition bezie- 

40 hungsweise die Multiplikation erforderlichen Zellen 
durchaus unterschiedlich sein konnen. Dabei bleibt die 
Plazierung der bereits geladenen MACROs erhalten; 
der Ladelogik beziehungsweise dem Compiler obliegt 
es, das neu zu ladende MACRO innerhalb der freien 

45 Zellen zu partitionieren (d. h. das zu ladende MACRO 
so zu zerlegen, daB es sich optimal einfugen lafit). Die 
Ablaufsteuerung des Programms wird dabei von der 
Ladelogik ubernommen, indem sie gemaB dem momen- 
tan ausgefuhrten Programmabschnitt die entsprechen- 

50 den MACROs in den Baustein ladt, wobei der Ladevor- 
gang von der spater beschriebenen Synchronisationslo- 
gik mitgesteuert wird, indem sie den Zeitpunkt des Um- 
ladens festlegt Daher entspricht der DFP nicht der be- 
kannten von-Neumann-Architektur, da die Daten- und 

55 Programmspeicher getrennt sind. Dies bedeutet jedoch 
gleichzeidg eine hohere Sicherheit, da fehlerhafte Pro- 
gramme keinen CODE, sondern lediglich DATEN zer- 
storen konnen. 
Um den DatenfluBprozessor eine arbeitsfahige Struk- 

6o tur zu geben, werden einige Zellen, und zwar unter an- 
derem die Eingabe-/Ausgabefunktionen (I/O) und Spei- 
chermanagementfunktionen vor dem Laden der Pro- 
gramme geladen und bleiben fur gewohnlich wahrend 
der gesamten Laufzeit konstant Dies ist erforderlich um 

65 den DatenfluBprozessor an seine Hardwareumgebung 
anzupassea Die ubrigen Zellen werden zu sogenannten 
MACROs zusammengefaBt und konnen wahrend der 
Laufzeit nahezu beliebig und ohne Beeinflussung der 
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Nachbarzellen umkonfiguriert werden. Dazu sind die 
Zellen einzeln und direkt adressierbar. 

Um die Umstrukturierung (das Umladen) der Zellen 
oder MACROs mit der Ladelogik zu synchronisieren, 
kann — wo notwendig, da nur Umgeladen werden darf, 5 
wenn die MACROs mit ihrer alien Tatigkeit fertig sind 
— eine Synchronisationsschaitung als MACRO auf dem 
DatenfluBprozessor untergebracht werden, die die ent- 
sprechenden Signale an die Ladelogik absendet Hierzu 
kann eventuell eine Modifikation der gewohnlichen 10 
MACROs von Noten sein, da diese dann der Synchroni- 
sations-Schaltung Zustandsinformationen zur Verfu- 
gung stellen mussen. 

Diese Zustandsinformationen signalisieren der Syn- 
chronisationslogik fur gewohnlich, daB einzelne MA- 15 
CROs ihre Aufgabe erledigt haben, was aus program- 
miertechnischer Sicht zum Beispiel die Terminierung 
einer Prozedur oder das Erreichen der Terminierungs- 
bedingung einer Schleife bedeuten kann. DJi. das Pro- 
gramm wird an einer anderen Stelle fortgesetzt und die 20 
die Zustandsinformation absendenden MACROs k6n- 
nen umgeladen werden. Zudem kann es von Interesse 
sein, daB die MACROs in einer bestimmten Reihenfolge 
umgeladen werden. Hierzu kann eine Wertung der ein- 
zelnen Synchronisations-Signaie durch einen Prioritats- 25 
dekoder erfolgen. Eine derartige — einfache — Logik 
ist in Fig. 13 gezeichnet Die Logik besitzt sieben Ein- 
gangssignale durch die die sieben MACROs ihre Zu- 
standsinformation abgeben. In diesem Fall soil 0 fur "'in 
Arbeit" und 1 fiir "fertig" stehen. Die Logik besitzt drei 30 
Ausgangssignale, die an die Ladelogik gefiihrt werden, 
wobei der Zustand 000 als Ruhezustand gilt Liegt ein 
Signal an einem der sieben EingSnge an, so findet eine 
Dezimal-Binar-Umsetzung statt, so wird zum Beispiel 
Sync6 als 1 1 0 dargestellt, was der Ladelogik anzeigt, daB 35 
das MACRO, welches Sync6 bedient, seine Aufgabe be- 
endet hat Liegen gleichzeitig mehrere Synchronisa- 
tions-Signaie am Eingang an, so gibt die Synchronisa- 
tionsschaitung das Signal mit der hochsten Prioritat an 
die Ladelogik weiter; liegen zum Beispiel SyncO, Sync4 40 
und Sync6 an, so reicht die Syncronistaions-SchaJtung 
zunachst Sync6 an die Ladelogik weiter. Nachdem die 
entsprechenden MACROs umgeladen sind und somit 
Sync6 nicht mehr anliegt wird Sync4 weitergeleitet usw. 
Zur Verdeutlichung dieses Prinzips kann der Standard- 45 
TTL-Baustein 74148 in Betracht gezogen werden. 

Ober die Ladelogik kann der DatenfluBprozessor je- 
weils optimal und gegebenenfalls dynamisch auf eine zu 
ldsende Aufgabe eingestellt werden. Damit ist zum Bei- 
spiel der groBe Vorteil verbunden, daB neue Normen 50 
oder dergleichen einzig und allein durch eine Umpro- 
grammierung des DatenfluBprozessors umgesetzt wer- 
den konnen und nicht — wie bisher — einen Austausch 
mit entsprechendem Anfall von Elektronikschrott be- 
dingen. 55 

Die DatenfluBprozessoren sind untereinander kaska- 
dierbar, was zu einer beinahe beliebigen Erhohung des 
Parallelisierungsgrades, der Rechenleistung, sowie der 
NetzgroBe in neuronalen Netzen fiihrt. Besonders wich- 
tig ist hier eine klare homogene Verbindung der Zellen eo 
mit den Ein-/Ausgangs-Pins (10- Pin) der DatenfluBpro- 
zessoren, um moglichst keine Einschrankungen auf die 
Programme zu haben. 

In Rg. 14 ist zum Beispiel die Kaskadierung von vier 
DFPs gezeigt. Sie erscheinen der Umgebung wie ein 65 
groBer homogener Baustein (Fig. 15). Prinzipieli sind 
damit zwei Kaskadierungsmethoden denkbar: 
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a) Nur die lokalen Verbindungen zwischen den Zel- 
len werden herausgefuhrt, was im vorliegenden 
Beispiel zwei 10- Pins pro Kantenzelle und vier 10- 
Pins pro Eckzelle bedeutet Allerdings hat der 
Compiler/Programmierer zu beachten, daB die glo- 
balen Verbindungen nicht herausgefuhrt werden, 
wodurch die Kaskadierung nicht vollstandig homo- 
gen ist. (Globale Verbindungen zwischen mehreren 
Zellen, fur gewohnlich zwischen einer kompletten 
Zellenreihe oder -spalte — siehe Fig. 6 — ; lokale 
Verbindungen existieren nur zwischen zwei Zellen). 
Fig. 16a zeigt den Aufbau innerhalb eines DFPs, 
Fig. 17a zeigt die daraus resultierende Kaskadie- 
rung von mehreren DFPs (drei gezeichnet). 

b) Die lokalen und globalen Verbindungen werden 
herausgefuhrt, was die Anzahl der benotigten Trei- 
ber/IO-Pins und Leitungen drastisch erh6ht in un- 
serem Beispiel auf sechs IO-Pins pro Kantenzelle 
und zwolf IO-Pins pro Eckzelle. Dadurch ist eine 
vollstandige Homogenitat bei der Kaskadierung 
gegeben. 

Da die globalen Verbindungen insbesondere bei Ver- 
wendung der Kaskadierungstechnik b) sehr lang wer- 
den kflnnen, kann der unangenehme Effekt auftreten, 
daB die Zahl der globalen Verbindungen nicht ausreicht, 
da bekanntlich jede Verbindung nur von einem Signal 
genutzt werden kann. Um diesen Effekt zu minimieren, 
kann nach einer gewissen Lange der globalen Verbin- 
dungen ein Treiber eingeschleift werden. Der Treiber 
hat zum einen eine Verstarkung des Signals zur Aufga- 
be, die bei langen Strecken und entsprechend hohen 
Lasten, unbedingt erforderlich ist; zum anderen kann 
der Treiber in Tristate gehen und damit das Signal un- 
terbrechen. Dadurch konnen die Abschnitte links und 
rechts, beziehungsweise oberhalb und unterhalb des 
Treibers von verschiedenen Signalen genutzt werden, 
sofern der Treiber in Tristate ist ansonsten wird ein 
Signal durchgeschleift Wichtig ist hierbei, daB die Trei- 
ber der einzelnen globalen Leitungen auch einzeln an- 
gesteuert werden konnen, d. h. ein globales Signal kann 
unterbrochen sein, das Nachbarsignal ist jedoch durch- 
geschleift Somit kSnnen auf einer globalen Verbindung 
durchaus abschnittweise verschiedene Signale anliegen, 
wahrend die globale Nachbarverbindung tatsachlich 
global von ein und demselben Signal verwendet wird 
(vergleiche Fig. 22). 

Zur besseren Kommunikation zwischen den Daten- 
fluBprozessoren und der Ladelogik konnen sogenannte 
Shared-Memories eingesetzt werden. So konnen zum 
Beispiel Programme von einer Festplatte, die im lO-Be- 
reich eines DatenfluBprozessors liegt zur Ladelogilc 
durchgereicht werden, indem die DatenfluBprozessoren 
die Daten von der Platte in den Shared-Memory schrei- 
ben und die Ladelogik sie dort abholt. Dies ist besonders 
wichtig, da hier, wie bereits erwahnt, keine von-Neu- 
mann- sondern eine Harvardarchitektur vorliegt Eben- 
so sind die Shared-Memories von Vorteil, wenn Kon- 
stanten, die im Programm — das im Speicherbereich der 
Ladelogik liegt — definiert sind, mit Daten — die im 
Speicherbetrieb der DatenfluBprozessoren liegen — 
verknflpft werden sollen. 

Weiterbildungen der vorstehend definierten und um- 
schriebenen Erfindung sind Gegenstand der Unteran- 
spriiche. 

Eine besondere Verwendung des erfindungsgem&Ben 
DatenfluBprozessors ist darin zu sehen, daB er in Ver- 
bindung mit geeigneten Ein-/Ausgabe-Einheiten einer- 
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seits und einem Speicher andererseits die Basis fiir einen separierten SUBMACRO X gemaB Fig. 6; 

kompletten (komplexen) Rechner bilden kann. Dabei Fig. 8 einen integrierten Schaltkreis (Chip) mit einer 

kann ein GroBteil der IO-Funktionen als MACROs auf Orthogonalstruktur einer quasi beliebigen Vielzahl von 

dem DatenfluBprozessor implementiert werden und es Zellen und einer extern zugeordneten Ladelogik; 
brauchen momentan lediglich Spezialbausteine (Ether- 5 Fig. 9 ein erstes Ausfuhrungsbeispiel einer Mehrzahl 

net-Treiber, VRAMS . . . ) extern zugefugt zu werden. miteinander zu einem Rechenwerk gekoppelter inte- 

Bei einer Normanderung oder Verbesserung muB dann grierter Schaltkreise (DatenfluBprozessor) nach Fig. 8; 

wie bereits angedeutet nur das MACRO softwareseitig Fig. 10 ein zweites Ausfuhrungsbeispiel einer Meh'r- 

gewechselt werden; ein Eingriff in die Hardware ist zahl miteinander zu einem Rechenwerk gekoppelter in- 
nicht notwendig. Es bietet sich hier an, einen IO-(Einga- 10 tegrierter Schaltkreise (DatenfluBprozessor) nach 

beVAusgabe-) Stecker festzulegen, liber welchen dann Fig. 8; 

die Zusatzbausteineangeschlossen werden konnen. Fig. 11 ein Ausfuhrungsbeispiel eines MACRO zur 

Fig. 20 zeigt den stark vereinfachten Aufbau eines Addition zweier Zahlenreihen; 

heute Qblichen Rechners. Durch den Einsatz eines DFP- Fig. 12 einen beispielhaften Aufbau einer Zelle mit 

Bausteins kSnnen erhebliche Teile eingespart werden 15 Multiplexern zur Auswahlder jeweiligen logischen Bau- 

(Fig. 21), wobei die entsprechenden herkommlichen steine; 

Baugruppen (CPU, Speicherverwaltung, SCSI-, Tasta- Fig. 13 eine zum Beispiel mit einem Standard-TTL- 

tur- und Videointerface, sowie der parallelen und seriel- Baustein 74 148 ausgefuhrte Synchronisationslogik; 

len Schnittstellen) als MACROs in die kaskadierten Fig. 14 die Kaskadierung von vier DFPs, wobei die 

DFPs abgelegt werden. Nur die durch einen DFP nicht 20 Verbindung zwischen den lO-Pins nur schematisch dar- 

nachbildbaren Teile wie Speicher und Leitungstreiber gestellt sind (tatsachlich bedeutet eine gezeichnete Ver- 

mit nicht TTL-Pegeln oder fQr hohe Lasten mussen ex- bindung eine Mehrzahl von Leitungen); 

tern zugeschaltet werden. Durch die Verwendung des Fig. 15 die durch die Kaskadierung erreichte Homo- 

DFPs ist eine gunstige Produktion gegeben, da ein und genitat; 

derselbe Baustein sehr hauf ig verwendet wird, das Lay- 25 Fig. 1 6a die Struktur der E/A-Zellen, wobei die globa- 

out der Platine ist durch die homogene Vernetzung ent- len Verbindungen nicht herausgefuhrt werden, 

sprechend einfach. Zudem wird der Aufbau des Rech- Fig. 16b die Struktur der E/A-Zellen, jedoch mit her- 

ners durch die Ladelogik bestimmt, die hier fur gewohn- ausgefahrten globalen Verbindungen ; 

lich nur zu Beginn der Abarbeitung (nach einem Reset) Fig. 17a die aus Fig. 16a resultierende Kaskadierung, 

das DFP-Array ladt, wodurch eine gunstige Fehlerkor- 30 wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 

rektur- und Erweiterungsmoglichkeit gegeben ist Ein renden Treiberzellen der kaskadierten Bausteine (ver- 

derartiger Rechner kann insbesondere mehrere ver- gleiche hierzuFig. 14) gezeichnet sind; 

schiedene Rechnerstrukturen simulieren, indem einfach Fig. 17b die aus Fig. 16b resultierende Kaskadierung, 

der Aufbau des zu simulierenden Rechners in das DFP- wobei eine Eckzelle, sowie die zwei mit ihr kommunizie- 

Array geladen wird. Zu bemerken ist, daB hierbei der 35 renden Treiberzellen der kaskadierten Bausteine (ver- 

DFP nicht in seiner Funktion als DFP arbeitet sondern gleiche hierzu Fig. 14) gezeichnet sind; 

lediglich ein hochkomplexes und frei programmierbares Fig. 18a eine Multiplikationsschaitung (vergleiche 

Logikarray zur Verfiigung stellt, sich hierbei jedoch von Fig. 11a); 

herkommlichen Bausteinen in seiner besonderen guten Fig. 18b die interne Struktur des DFPs nach dem La- 

Kaskadierbarkeit unterscheidet 40 den (vergleiche Fig. lib); 

Ein weiteres Einsatzgebiet des Bausteins ist der Auf- Fig. 19c die Arbeitsweise des DFPs im Speicher, so- 

bau groBer neuronaler Netze. Sein besonderer Vorzug wie die Zustande der Zahler 47, 49; 

liegt hierbei in seiner hohen Gatterdichte, seiner ausge- Fig. 19 eine Kaskadenschaltung, wobei der Addierer 

zeichneten Kaskadierbarkeit, sowie seiner Homogeni- aus Fig. 1 1 und der Multiplizierer aus Fig. 18 zur Steige- 

tat. Ein Lernvorgang, der eine Anderung einzelner axio- 45 rung der Rechenleistung hintereinander geschaltet sind ; 

matischer Verbindungen beziehungsweise einzelner Fig. 20 den stark schematisierten Aufbau eines her- 

Zellfunktionen beinhaltet ist auf ublichen Bausteinen kSmmlichen Rechners; 

ebenso schlecht durchfuhrbar, wie der Aufbau groBer Fig. 21 den moglichen Aufbau desselben Rechners 

homogener und gleichzeitig flexibler Zellstrukturen. mit Hilfe eines Arrays aus kaskadierten DFPs; 

Die dynamische Umkonfigurierbarkeit ermeglicht erst- 50 Fig. 22 einen Ausschnitt mit eingezeichneten (Lei- 

malig die optimale Simulation von Lernvorgangen. tungs-) Treibern eines DFPs. 

Die yorliegende Erfindung wird im folgenden anhand In Fig. 1 ist ein Schaltsymbol eines 8-Bit-Addierers 

der weiteren Figurennahererlautertlnsgesamtzeigen dargestellt. Das Schaltsymbol besteht aus einem qua- 

Fig. 1 ein Schaltsymbol fur einen 8-Bit-Addierer; dratischen Baustein 1 mit acht Eingangen A 0 ... 7 fur 

Fig. 2 ein Schaltsymbol fur einen aus acht 1 -Bit- Ad- 55 ein erstes Datenwort A und acht Eingangen B 0 ... 7 fur 

dierern bestehenden 8-Bit-Addierer nach Fig. 1 ; ein zweites (zu addierendes) Datenwort B. Die jeweils 

Fig. 3 eine logische Struktur eines 1-Bit-Addierers acht Eingange Ai, Bi werden erganzt durch einen weite- 

entsprechend Fig. 2; ren Eingang Uein uber den dem Baustein 1 gegebenen- 

Fig. 4 eine Zellenstruktur des 1-Bit-Addierers ent- falls ein Ubertrag zugeleitet wird. Der Baustein 1 hat 

sprechend Fig. 3; 60 funktions- und bestimmungsgemaB acht Ausgange S 0 

Fig. 5 einen der Zellenstruktur nach Fig. 1 entspre- ... 7 fur binaren Summanden und einen weiteren Aus- 

chend aufgebauten 8-Bit-Addierer; gang Uaus fur den gegebenenfalls bestehenden Ober- 

Fig. 6 ein aus vier Zellen bestehendes unprogram- trag. 

miertes SUBMACRO X (analog einem 1-Bit-Addierer Das in Fig. 1 dargestellte Schaltsymbol ist in Fig. 2 als 

gemaB Fig. 4 beziehungsweise Fig. 5) mit den erforder- 65 Anordnung sogenannter SUBMACROS dargestellt 

lichen Leitungsanschlussen; Diese SUBMACROS 2 bestehen je aus einem 1-Bit-Ad- 

Fig. 7 einen Teilausschnitt eines integrierten Schalt- dierer 3 mit je einem Eingang fur die entsprechenden 

kreises (Chip) mit einer Vielzahl von Zellen und einem Bits des Datenworts und einem weiteren Eingang fur ein 
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ObertragsbiL Die 1-Bit-Addierer 3 weisen daruberhin- Fig. 4) bestehende Untereinheit zu betrachten ist 

aus einen Ausgang fur den Summanden und einen Aus- Das in Fig. 5 separierte SUBMACRO "X" ist in Fig. 6 

gang far den Obertrag Oaus auf. als Teil eines integrierten Schaltkreises (Chip) 20 ge- 

In Fig. 3 ist die binare Logik eines 1-Bit-Addierers meinsam mit Leitungs- und Datenanschlussen darge- 

beziehungsweise eines SUBMACROS 2 nach Fig. 2 dar- 5 stellt Das SUBMACRO "X" besteht aus den vier Zellen 

gestellt Analog zu Fig. 2 weist diese Schaltiogik je ei- 10 die entsprechend der orthogonalen Struktur je Seite 

nen Eingang Ai, Bi fflr die konjugierten Bits der zu vier Datenanschlusse (also insgesamt sechzehn Daten- 

verkniipfenden Daten auf; ferner ist ein Eingang Oein anschlQsse je Zelle) aufweisea Die Datenanschlusse 

fur den Obertrag vorgesehen. Diese Bits werden den verbinden jeweils benachbane Zellen, so daB ersichtlich 

dargestellten Verbindungen beziehungsweise Verknilp- io wird, wie beispielsweise eine Dateneinheit von Zelle zu 

fungen entsprechend in zwei ODER-Gliedern 5 und drei Zelle durchgeschleust wird. Die Ansteuerung der Zellen 

NAND-Gliedern 6 verknupft, so daB am Ausgangsan- 10 erfolgt einerseits uber sogenannte lokale Steuerun- 

schiuB Si und am Ausgang fur den Obertrag Oaus die gen, das sind lokale Leitungen, die mit alien Zellen ver- 

einem Volladdierer entsprechenden Verknupfungser- bunden sind, und andererseits uber sogenannte globale 

gebnisse (Si, Oaus) anstehen. is Leitungen, d. h. Leitungen, die uber den gesamten inte- 

Die Erfindung setzt da ein, wo es - wie in Fig. 4 grierten Schaltkreis (Chip) 20 gefiihrt sind. 

dargestellt - darum geht, das in Fig. 3 gezeigte SUB- In Fig. 7 ist ein vergroBerter Ausschnitt eines inte- 

MACRO 2 oder eine oder mehrere beliebige Funk- grierten Schaltkreises 20 dargestellt, der mit einem or- 

tion(en) in geeigneter Weise in einer Zellstruktur zu thogonalen Raster von Zellen 10 belegt ist Wie in Fig. 7 

implementieren. Dies geschieht auf der Grundlage lo- 20 angedeutet kann so zum Beispiel eine Gruppe von vier 

gisch und strukturell identischer Zellen 10, deren einzel- Zellen 10 als SUBMACRO "X" ausgewahlt und dem 

ne iogische Bausteine der auszufuhrenden VerknQp- 1-Bit-Addierer entsprechend Fig. 4 gemaB program- 

fungsfunktion entsprechend miteinander gekoppelt miert beziehungsweise konfiguriert werden. 

werden, und zwar mittels der noch zu beschreibenden Ein vollstandiger integrierter Schaltkreis (Chip) 20 ist 

Ladelogik. GemaB der in Fig. 4 gezeigten, von der 25 in Fig. 8 dargestellt Dieser integrierte Schaltkreis 20 

Schaltiogik nach Fig. 3 abgeleiteten Verknupfungslogik besteht aus einer Vielzahl im orthogonalen Raster ange- 

fflr einen 1-Bit-Addierer sind je zwei Zellen 10.1, 10.2 ordneter Zellen 10 und weist an seinen AuBenkanten 

bezuglich der logischen Bausteine insoweit gleich, daB eine entsprechende Anzahl von LeitungsanschlOssen 

jeweils ein ODER-Glied 5 und ein NAND-Glied 6 akti- (Pins) auf, uber die Signale, insbesondere Ansteuersi- 

viert sind. Eine dritte Zelle 103 wird nur als Leitungszel- 30 gnale und Daten zugefuhrt und weitergeleitet werden 

Ie (Leiterbahnzelle) benutzt und die vierte Zelle 10.4 ist kdnnen. In Fig. 8 ist wiederum das SUBMACRO "X" 

bezuguchdesdrittenNAND-Ghedes 6 aktiv geschaltet gemaB Fig.5/Fig.6 abgegrenzt; dariiberhinaus sind 

Das aus den vier Zellen 10.1 . . . 10.4 bestehende SUB- auch weitere SUBMACROS separiert, die spezifischen 

MACRO 2 steht somit stellvertretend fur einen 1-Bit- Funktionen und Vernetzungen entsprechend zu Unte- 

Addierer, d. h. ein 1-Bit-Addierer einer Datenverarbei- 35 reinheiten zusammengefaBt sind. Dem integrierten 

tungseinrichtung gemaB der vorliegenden Erfindung Schaltkreis (Chip) 20 ist eine Ladelogik 30 zugeordnet 

wird uber vier entsprechend programmierte (konfigu- beziehungsweise ubergeordnet uber die der integrierte 

rierte) Zellen 10.1 . . . 10.4 verifiziert (Der Vollstandig- Schaltkreis 20 programmiert und konfiguriert wird. Die 

keit halber soil angemerkt werden, daB die einzelnen Ladelogik 30 teilt letztlich dem integrierten Schaltkreis 

Zellen ein erheblich umfangreicheres Netzwerk von lo- 40 20 mit, wie er arithmetisch-logisch zu arbeiten hat. Be- 

gischen Bausteinen, sprich Verknupfungsgiiedern, und zugnehmend auf die Fig. 1 bis 5 ist in Fig. 8 einerseits 

Invertern aufweist, die jeweils dem aktuellen Befehl der das SUBMACRO "X" entsprechend Fig. 4 und Fig. 5 

Ladelogik zufolge aktiv geschaltet werden kdnnen. Ne- hervorgehoben; andererseits ist auch ein MACRO "Y" 

ben den logischen Bausteinen ist auch ein dichtes Netz entsprechend Fig. 1 und Fig. 2 angezeichnet, das als Ein- 

von Verbindungsleitungen zwischen den jeweils be- 45 heit einem 8-Bit-Addierer entspricht 

nachbarten Bausteinen und zum Aufbau von zeilen- und Anhand von Fig. 9 beziehungsweise Fig. 10 soli im 

spaltenweisen Busstrukturen zur Dateniibertragung an- folgenden eine Rechnerstruktur beschrieben werden, 

dererseits vorgesehen, so daB uber eine entsprechende die auf den im vorstehenden definierten und erlauterten 

Programmierung seitens der Ladelogik quasi beliebige integrierten Schaltkreis 20 aufbaut 

Iogische Verknupfungsstrukturen implementiert wer- 50 GemaB dem in Fig. 9 dargestellten ersten Ausfuh- 

den konnen). rungsbeispiel ist — analog zur Anordnung der Zellen — 

Der Vollstandigkeit halber ist in Fig. 5 der Zellenauf- im Orthogonalraster eine Mehrzahl von integrierten 

bau eines 8-Bit-Addierers in seiner Gesamtheit darge- Schaltkreisen 20 angeordnet, deren jeweils benachbarte 

stellt Die in Fig. 5 gezeigte Struktur entspricht insoweit uber lokale BUS-Leitungen 21 miteinander gekoppelt 

der nach Fig. 2, wobei die in Fig. 2 symbolisch als SUB- 5s beziehungsweise vernetzt sind. Die — beispielsweise 

MACROS 2 dargestellten 1-Bit-Addierer jeweils durch aus sechzehn integrierten Schaltkreisen 20 bestehende 

eine vier-zellige Einheit 10.1 . . . 10.4 ersetzt sind. Bezo- - Rechnerstruktur weist Ein-/Ausgangsleitungen IO 

gen auf den erfindungsgemaBen DatenfluBprozessor auf, Qber die der Rechner quasi mit der AuBenwelt in 

bedeutet dies, daB zweiunddreiBig Zellen der zur Verfu- Verbindung steht d. h. korrespondiert Der Rechner ge- 

gung stehenden Gesamtheit von Zellen einer zellular 60 maB Fig. 9 weist ferner einen Speicher 22 auf, der dem 

mit logisch identischem Layout gefertigten Schaltungs- dargestellten Ausfuhrungsbeispiel entsprechend aus 

platine seitens der Ladelogik so angesteuert und konfi- zwei separierten Speichern, zusammengesetzt aus je- 

guriert beziehungsweise programmiert werden, daB weils RAM, ROM sowie einem Dual-Ported RAM als 

diese zweiunddreiBig Zellen ein 8-Bit-Addierer bilden. shared memory zu der Ladelogik geschaltet besteht die 

In der Darstellung nach Fig. 5 ist uber eine strich- 65 gleichermaBen als Schreib-Lese-Speicher oder auch nur 

punktierte Umrahmung ein SUBMACRO "X" zeichne- als Lese-Speicher realisiert sein kdnnen. Der soweit be- 

risch separiert das letztlich als aus vier einem 1-Bit-Ad- schriebenen Rechnerstruktur ist die Ladelogik 30 zu- 

dierer entsprechend programmierten Zellen (10 gemaB beziehungsweise ubergeordnet mittels der die inte- 
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grierten Schaltkreise (DatenfluBprozessor) 20 program- die abzuspeichernden Additionsergebnisse erganzt. Die 

miert und konfiguriert und vernetzt werden. AdreBschaltung 46 besteht ihrerseits aus drei MACROs 

Die Ladelogik 30 baut auf einem Transputer 31, d. h. 1 (gemaB Fig. 1) zur Bildung der AdreBdaten, wobei 

einem Prozessor mit mikrocodiertem Befehlssatz auf, diese MACROs 1 wiefolgtgeschaltetsind:Ober jeweils 

dem seinerseits ein Speicher 32 zugeordnet ist. Die Ver- 5 einen Eingang werden die zu verknupfenden Adressen 

bindung zwischen dem Transputer 31 und dem Daten- fur An, Bn, Cn zugefuhrt Diese Adressen werden mit 

fluBprozessor basiert auf einer Schnittstelle 33 filr die den Ausgangssignalen eines Zahlers 47 addiert und mit 

sogenannten Ladedaten, d. h. die Daten die den Daten- der Statemachine 45 so verknupft, daB am Ausgang die 

fluBprozessor aufgabenspezifisch programmieren und neue Zieladresse ansteht. Der Zahler 47 und der Kom- 

konfigurieren und einer Schnittstelle 34 fur den bereits 10 parator 48 haben dabei die Aufgabe sicherzustellen, daB 

genannten Rechnerspeicher 22, d. h. den Shared-Memo- jeweils die richtigen Summanden verknupft werden und 

ry-Speicher. daB jeweils am Ende der Zahlenreihen, d. h. bei n = 9 

Die in Fig. 9 dargestellte Struktur stellt so einen kom- abgebrochen wird. Ist die Addition vollendet, so wird in 

pletten Rechner dar, der uber die Ladelogik 30 jeweils der Zeitsteuerung 45 ein STOP-Signal generiert und die 

fall- beziehungsweise aufgabenspezifisch programmiert 15 Schaltung passiv geschaltet Ebenso kann das STOP-Si- 

und konfiguriert werden kann. Der Vollstandigkeit hal- gnal als Eingangssignal fur eine Synchronisations-Schal- 

ber sei noch angemerkt, daB - wie in Verbindung mit tung verwendet werden, indem die Synchronisationslo- 

der Ladelogik 30 Qber Pfeile angedeutet — mehrere gik anhand dieses Signals erkennen kann, daB die Ge- 

dieser Rechner vernetzt, d. h. miteinander gekoppelt samtfunktion "Addieren" gemaB dem nachfolgend be- 

werden konnen. 20 schriebenen ML1 Programm beendet ist und die MA- 

Ein weiteres Ausfuhrungsbeispiel einer Rechner- CROs somit durch neue ersetzt werden konnen (zum 

struktur ist in Rg. 10 dargestellt Im Unterschied zu Beispiel konnte STOP das Signal Sync5 sein). 

Fig. 9 sind dabei neben den lokalen BUS-Leitungen zwi- Der Zeitablauf in der Zeitsteuerung 45 (STATEMA- 

schen den benachbarten integrierten Schaltkreisen 20 CHINE) laBt sich dabei wie folgt darstellen, wobei noch 

noch ubergeordnete zentrale BUS-Leitungen 23 vorge- 25 anzumerken ist, daB in der Zeitsteuerung 45 eine Verzo- 

sehen, um zum Beispiel spezifische Ein- beziehungswei- gerungszeit T (in Form von Taktzyklen) zwischen der 

se Ausgangsprobleme losen zu konnen. Auch der Spei- AdreBgenerierung und dem Datenerhalt implementiert 

cher 22 (Shared-Memory) ist uber zentrale BUS-Leitun- ist: 
gen 23 mit den integrierten Schaltkreisen 20 verbunden, 

und zwar wie dargestellt jeweils mit Gruppen dieser 30 - Im Zyklus 1 wird jeweils der Zahler 47 um 1 

integrierten Schaltkreise. Die in Fig. 10 dargestellte erhoht und im (Comparator 48 wird gepruft, ob n > 

Rechnerstruktur weist die gleiche Ladelogik 30 auf, wie 9 erreicht ist; synchron zu diesen Operationen wer- 

sie anhand von Fig. 9 erlautert wurde. den die Adressen fur A, B, C berechnet; 

In Verbindung mit Fig. 1 1 a soil eine auf erfindungsge- - im Zyklus (T + 1) werden die Summanden A, B 

maBen DatenfluBprozessoren aufgebaute Additions- 35 ausgelesen und addiert; 

schaltung erlautert werdea Ausgegangen wird von zwei - im Zyklus (T + 2) wird die Summe C abgespei- 

Zahlenreihen An und Bn fur samtliche n zwischen 0 und chert 
9; die Aufgabe besteht darin, die Summe Ci <= Ai + Bi 

zu bilden, wobei der Index i die Werte 0 « n < 9 anneh- Mit anderen Worten heiBt dies, daB die Operations- 
men kann. 40 schleife und die eigentliche Addition gerade ( T + 2) 

Bezugnehmend auf die Darsteilung nach Fig. 1 la ist Taktzyklen erfordert Im aligemeinen sind fur T 2 ... 3 

die Zahlenreihe An in einem ersten Speicher RAMI Takte erforderlich, so daB verglichen mit den herkomm- 

abgespeichert und zwar zum Beispiel ab einer Speicher- lichen Prozessoren (CPU), die im aligemeinen 50 bis 

adresse 1000h; die Zahlenreihe Bn ist in einem Speicher mehrere 100 Taktzyklen bedingen, eine ganz wesentli- 

RAM2 an einer Speicheradresse OdfaOh abgespeichert; 45 cheRechenzeit-Reduzierungmoglichwird. 

die Summe Cn wird in den RAMI eingeschrieben und Die anhand von Fig. 11 aufgezeigte {Configuration 

zwar unter der Adresse lOOah. soli im folgenden Qber eine hypothetische MACRO- 

Es ist ein weiterer Zahler 49 zugeschaltet, der ledig- Sprache ML1 nochmals erlautert werden: 

lich die einzelnen durch die Steuerschaltung freigegebe- Es existieren die Zahlenreihen An und Bn 
nen Taktzyklen hochzahlt Dies soil im Weiteren zur 50 

Verdeutlichung der Umkonfigurierbarkeit einzelner Vn:0<=n«9 
MACROs ohne Beeinflussung der an der Umkonfigurie- 

rung nicht beteiligten MACROs dienen. Es sollen die Summen Ci = Ai + Bi mit I e N gebildet 

Fig. 11a zeigt zunachst die eigentliche Additions- werden. 

schaltung 40, die aus einem ersten Register 41 zur Auf- 55 const n = 9; 

nahme der Zahlenreihe An und einem zweiten Register array A [n] in RAM [1] at lOOOh; 

42 zur Aufnahme der Zahlenreihe Bn besteht Den bei- array B [n] in RAM [2] at OdfaOh; 

den Registern 41/42 ist ein 8-Bit-Addierer entsprechend array C[n] in RAM [1] at lOOah; 

dem in Fig. 1 dargestellten MACRO 1 nachgeschaltet for i = 0 to n with (A [i] , B [i] , C [i]) 

Der Ausgang des MACRO 1 fuhrt uber eine Treiber- 60 Al; 

schaltung 43 zuruck zum Speicher RAMI. Die Takt- C = Al = A + B; 

beziehungsweise Zeitsteuerung der Additionsschaltung next; 

40 erfolgt uber eine von einem Taktgenerator T ange- RAMI ist der 1. Speicherblock 

steuerte Zeitsteuerung (STATEMACHINE) 45, die mit RAM2 ist der 2. Speicherblock 

den Registern 41, 42 und der Treiberschaltung 43 ver- 65 at folgt die Basisadresse der Arrays 

bundenist for ist der Schleifenbeginn 

Die Additionsschaltung 40 wird funktional durch eine next ist das Schleifenende 

AdreBschaltung 46 zur Generierung der AdreBdaten fur with ( ) folgen die Variablen, deren Adressen durch die 
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Zahlvariable i bestimmt werden 

A T folgt die Verzogerungszeit fur eine Statemachine in 

Taktzyklen. 

Das Timing der Statemachine sieht demnach folgen- 
dermaBenaus: 5 

Zyklus Aktivitat 



1 



T+ 1 
T + 2 



Zahler erhohen.Vergleich auf >9Qa. 
Abbruch) und Adressen fur A B, C, 
berechnen 

A, B, holen und addieren 
Nach C speichern 



10 



Das heiflt — wie bereits erwahnt — die Schleife und die 
Addition benotigen gerade einmal T + 2 Taktzyklen. 

Fig. lib zeigt den groben Aufbau der einzelnen 
Funktionen (MACROs) in einem DFP. Die MACROs 
sind in ihrer etwaigen Lage und GrfiBe eingezeichnet 
und mit den anhand von Fig. Ua erlauterten entspre- 
chenden Nuramern versehen. 

Fig. 1 lc zeigt den groben Aufbau der einzelnen Funk- 
tionen auf die RAM-B16cke 1 und 2: Die Summanden 
werden nacheinander in aufsteigender Reihenfolge aus 
den RAM-Bl5cken 1 und 2 ab Adresse lOOOh bezie- 
hungsweise OdfaOh gelesen und in RAM-Block 1 ab 
Adresse lOOah gespeichert Zudem sind die Zahler 47 
und 49 gegeben, beide zahlen wahrend des Ablaufs der 
Schaltung von 0 bis 9. 

Nach Beendigung des beschriebenen Programms soli 
ein neues Programm geladen werden, das die Ergebnis- 
se weiterverwertet Die Uraladung soli zur Laufzeit er- 
folgen. Das Programm ist im Folgenden gegeben: 

Es existieren die Zahlenreihen An und Bn, wobei An 
durch das Ergebnis Cn des vorher ausgefuhrten Pro- 
gramms gegeben ist: 

Vn:0«n<=9 

Es solien die Produkte Ci= Ai • Bi mit I e N gebildet 

werden. 

const n =9 

array A[n] in RAMfl at lOOah 
array B[n] in RAM[2] at OdfaOh 
arrayC[n]inRAM[l]at 1015h 
for i m 0 to n with (A[i] , B[i] , c[i]) 
Al; 

C= A1=A«B; 
next; 

Die Beschreibung der einzelnen Befehle ist bereits be- 
kannt,' 

• symbolisiert die Multiplikation. 

Die MACRO-Struktur ist in Fig. 18a beschrieben, 
Fig. 18b gibt in bekannter Weise die Lage und GroBe 
der einzelnen MACROs auf dem Chip an, besonders zu 
beachten ist die GroBe des Multiplizierers 2 in Vergleich 
zu Addierer 1 aus Fig. lib. In Fig. 18c ist erneut die 
Auswirkung der Funktion auf den Speicher aufgezeigt, 
Zahler 47 zahlt erneut von 0 bis 9, d. h. er wird beim 
Nachladen der MACROs zuruckgesetzt. 

Besonders zu beachten ist der Zahler 49. Angenom- 
men, das Umladen der MACROs betragt 10 Taktzyklen. 
Dann lauft der Zahler 49 von 9 auf 19, da der Baustein 
dynamisch umgeladen wird, d. h. nur die umzuladenden 
Teile werden gestoppt, der Rest arbeitet weiter. Das 
fuhrt nun dazu, daB der Zahler wahrend des Programm- 



ablaufs von 19 auf 29 hochlauft (Hiermit soli das dyna- 
mische unabhangige Umladen demonstriert werden, in 
jedem bisher bekannten Baustein wQrde der Zahler er- 
neut von 0 auf 9 laufen, da er zuruckgesetzt wird). 

Bei naherer Betrachtung des Problems stellt sich die 
Frage, warum nicht beide Operationen, die Addition 
und die Multiplikation in einem Zyklus durchgefuhrt 
werden, also die Operation: 

Es existieren die Zahlenreihen An und Bn, wobei An 
durch das Ergebnis von Cn des vorher ausgefuhrten 
Programms gegeben ist: 

Vn:0<=n-=9 



is Es sollen die Produkte Ci=(Ai+Bi) • Bi mit I e N ge- 
bildet werden. 
path D; 
const n= 9; 

array A[n] in RAM[1] at lOOOh 
20 array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1 ] at lOOah 
for i = 0 to n with (A[i] , B[i] , qi]) 
Al; 

D=Al=AbB; 
25 C=A1 = D«B; 
next; 

path D definiert einen internen nicht aus den DFP 
herausgefuhrten Doppelpfad. Die Operation benotigt 
wegen einem zusatzlichen Al einen Taktzyklus mehr als 

30 vorher, ist insgesamt jedoch schneller als die beiden 
obigen Programme in Folge ausgefuhrt, da zum einen 
die Schleife nur einmal durchlaufen wird, zum zweiten 
nicht umgeladen wird. 
Prinzipiell konnte das Programm auch so formuliert 

35 werden: 
const n= 9; 

array A[n] in RAM[1] at lOOOh 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[i] at lOOah 
40 for i=0 ton with (AfiT, B[iJ Qi]) 
A- 1; 

C = A2 = (A + B)-B; 
next; 

Sind die Gatterlaufzeiten des Addierers und des Mul- 
« tiplizierers zusammen kleiner als ein Taktzyklus, kann 

die Operation (A + B) • B auch in einem Taktzyklus 

durchgefuhrt werden, was zu einer weiteren erhebli- 

chen Geschwindigkeitssteigerung fuhrt: 

const n= 9; 
so arrayA[n]inRAM[l]atl000h 

array B[n] in RAM[2] at OdfaOh 

array C[n] in RAM[1] at lOOah 

for i = 0 to n with (A[iJ B[iJ C[i]) 

Al; 

55 C = A1=(A + B)-B; 
next; 

Anhand von Fig. 12 soli ein einfaches Beispiel eines 
Zellenaufbaus erlautert werden. Die Zelle 10 umfaBt 
zum Beispiel ein UND-Glied 51, ein ODER-Glied 52, ein 

60 XOR-Glied 53, einen Inverter 54 sowie eine Register- 
zelle 55. Die Zelle 10 weist daruberhinaus eingangsseitig 
zwei Multiplexer 56, 57 mit (den sechzehn Eingangen 
der Zelle entsprechend Fig. 6) zum Beispiel je sechzehn 
Eingangsanschlussen INI, IN2 auf. Ober diesen 

65 (16 : 1)-Multiplexer 56/57 werden jeweils die den ge- 
nannten logischen GUedern UND, ODER, XOR 51 ... 
53 zuzufuhrenden Daten ausgewahlt. Diese logischen 
Glieder sind ausgangsseitig mit einem (3 : 1)-Multiple- 
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xer 58 gekoppelt der seinerseits mit dem Eingang des 
Inverters 54, einem Eingang der Registerzelle 55 und 
einem weiteren (3 : 16)-Multiplexer 59 gekoppelt ist 
Der letztgenannte Multiplexer 59 ist zusatzlich mit dem 
Ausgang des Inverters 54 und einem Ausgang der Regi- 5 
sterzelle 55 verbunden und gibt das Ausgangssignal 
OUTab. 

Der Vollstandigkeit halber sei angemerkt, daB die Re- 
gisterzelle 55 mit einem Reset-Eingang R und einem 
Takteingang gekoppelt ist 10 

Dem im vorstehenden erlauterten Zellenaufbau, d. h. 
der Zelle 10 ist nun eine Ladelogik 30 ubergeordnet, die 
mit den Multiplexern 56, 57, 58 und 59 verbunden ist und 
diese den gewunschten Funktionen entsprechend an- 
steuert. 15 

Sollen zum Beispiel die Signale A2 mit B5 verundet 
werden, so werden die Multiplexer 56, 57 den Leitungen 
"ZWEI" beziehungsweise "FONF" entsprechend aktiv 
geschaltet; die Summanden gelangen dann zum UND- 
Glied 51 und werden bei entsprechender Aktivierung 20 
der Multiplexer 58, 59 am Ausgang OUT abgegeben. 
Soil zum Beispiel eine NAND-Verknupfung durchge- 
fiihrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgang OUT steht dann das negierte 
UND-Ergebnis an. 25 

Patentanspruche 

1. Datenverarbeitungseinrichtung, wobei ein (im 
folgenden Datenfluflprozessor — DFP — genann- 30 
ter) integrierter Schaltungskreis (Chip) mit einer 
Vielzahl insbesondere orthogonal zueinander an- 
geordneter homogen strukturierter Zellen mit je 
einer Mehrzahl jeweils logisch gleicher und struk- 
turell identisch angeordneter Bausteine vorgese- 35 
hen ist, dessen Zellen zeilen- und spaltenweise, ge- 
gebenenfalls gruppenweise zusammengefaBt, mit 
Ein-/Ausgangsanschlussen des integrierten Schalt- 
kreises verbunden sind, dadurch gekennzeichnet, 
daB den Zellen eine Ladelogik zugeordnet ist, uber 40 
die sie je fiir sich und gegebenenfalls gruppenweise 
zusammengefaBt so programmierbar (konfigurier- 
bar) sind, daB beliebige logische Funktionen und/ 
oder Vernetzungen untereinander verifizierbar 
sind, und zwar derart, daB eine Manipulation der 45 
DFP- {Configuration wahrend des Betriebes (oder 
zur Laufzeit), d. h. die Modifikation funktioneller 
Teile (MACROS) des DFPs erfolgen kann, ohne 
daB andere funktionelle Teile angehalten werden 
mussen oder in ihrer Funktion beeintrachtigt wer- 50 
den. 

2. Datenverarbeitungseinrichtung nach Anspruch 1, 
dadurch gekennzeichnet, daB die Ladelogik mit 
Speichermitteln gekoppelt ist, flber die die Konfi- 
guration der Zellen spezifizierbar ist 55 

3. Datenverarbeitungseinrichtung nach einem der 
Anspruche 1 bis 2, dadurch gekennzeichnet, daB die 
Ladelogik aus einem Prozessor besteht, der den 
gesamten Programmablauf auf der Grundlage von 

in verschiedenen Speichern abgelegten Daten und 60 
Programmen im Sinne einer Harvard-Struktur ver- 
waltet 

• 4. Datenverarbeitungseinrichtung nach Anspruch 3, 
dadurch gekennzeichnet, daB die Ladelogik ihrer- 
seits aus Zellen mit je einer Mehrzahl jeweils lo- 65 
gisch gleicher und strukturell identisch angeordne- 
ter Bausteine aufgebaut ist 
5. Datenverarbeitungseinrichtung nach einem der 
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Anspruche 1 oder 4, dadurch gekennzeichnet, daB 
die Zellen dynamisch wahrend eines Programmab- 
laufs umkonfigurierbar sind, ohne daB die zu bear- 
beitenden Daten selbst beeinfluBt werdea 

6. Datenverarbeitungseinrichtung, wobei ein (im 
folgenden DatenfluBprozessor — DFP — genann- 
ter) integrierter Schaltungskreis (Chip) mit einer 
Vielzahl insbesondere orthogonal zueinander an- 
geordneter homogen strukturierter Zellen mit je 
einer Mehrzahl jeweils logisch gleicher und struk- 
turell identisch angeordneter Bausteine vorgese- 
hen ist, dessen Zellen zeilen- und spaltenweise, ge- 
gebenenfalls gruppenweise zusammengefaBt, mit 
Ein-/Ausgangsanschliissen des integrierten Schalt- 
kreises verbunden sind, dadurch gekennzeichnet, 
daB eine Mehrzahl von ihnen in Kaskadenform 
koppelbar sind. 

7. Datenverarbeitungseinrichtung nach einem der 
Anspruche 1 bis 6, gekennzeichnet durch, die Zu- 
ordnung geeigneter Daten-Ein-/Ausgabe-Einhei- 
ten und mindestens eines Speichers zum Aufbau 
eines (komplexen, kompletten) Rechenwerks. 

8. Datenverarbeitungseinrichtung nach einem der 
Anspruche 1 bis 7, dadurch gekennzeichnet, daB die 
Funktionen der Ein-/Ausgabeeinheiten partiell im 
integrierten Schaltkreis (Chip) implementierbar 
sind. 
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